Sparse Vector

GPT-4.icon

概要

多くの次元が0で、一部にしか値が存在しないベクトル

次元数は数万〜数百万に及ぶこともある（特徴語数など）

Bag-of-WordsやTF-IDF、One-hotエンコーディングのような従来型の手法で生成される

具体例

例えば、次のようなベクトル（10万次元中、3つだけが非ゼロ）：

[0, 0, ..., 0.8, 0, ..., 0.1, 0, ..., 0.3, 0, ..., 0]

使われ方

キーワードベースの検索に使われる（例：Lucene、Elasticsearchの内部）

単語の出現頻度などに基づく検索

メリット

意味のある特徴（単語など）との対応が明確

値が0の部分を省略して効率的に保存できる（スパースマトリクスなど）

デメリット

意味的な類似性を捉えにくい（例：言い換えや文脈には弱い）

高次元で非連続なため、計算コストが高くなりやすい